Programmation dynamique à base de points pour la résolution des DEC-POMDPs
نویسندگان
چکیده
RÉSUMÉ. Nous présentons un nouvel algorithme de planification pour la construction de systèmes multi-agents réactifs et situés pouvant se modéliser par des processus de décision de Markov décentralisés (DEC-POMDP). Cet algorithme est fondé sur la programmation dynamique à base de points. Il est dérivé de techniques de programmation dynamique optimale utilisées pour résoudre des jeux stochastiques partiellement observables(POSG) et des techniques d’approximation utilisées pour résoudre des POMDP mono-agents. Nous montrons pour la première fois qu’il est possible de déterminer un ensemble d’états de croyance multi-agent pertinents, et nous montrons comment ce calcul permet ensuite d’éviter le recours à la programmation linéaire très couteuse dans le cas multi-agent. Nous détaillons une version exacte et une version approximative de notre algorithme, et nous montrons son efficacité sur un exemple de la littérature.
منابع مشابه
Prise de décision en temps-réel pour des POMDP de grande taille
RÉSUMÉ. Cet article présente une méthode d’approximation pour les processus décisionnels de Markov partiellement observables (POMDP) qui est basée sur une recherche en profondeur pour la planification dans un environnement temps-réel dynamique. L’idée de base de notre approche, appelée RTBSS (Real-Time Belief Space Search), est d’éviter de calculer des politiques complètes pour des POMDPs. Cett...
متن کاملConditions générales pour l'admissibilité de la programmation dynamique dans la décision séquentielle possibiliste
RÉSUMÉ. Nous nous intéressons à la contrepartie possibiliste des processus de décision markoviens. À l’instar du modèle classique, trois relations de préférence peuvent être distinguées (préférences sur les chemins, sur les loteries et sur les politiques). Nous énonçons des propriétés simples et suffisantes (transitivité, invariance par translation, indépendance) sur la relation de préférence s...
متن کاملProcessus de décision markoviens et préférences non classiques
RÉSUMÉ. Le modèle classique des processus de décision markoviens repose implicitement sur une structure de préférence induite par l’existence de coûts scalaires additifs et l’utilisation d’un certain critère d’évaluation des politiques (total, total pondéré, moyenne, ...). Cette structure de préférence s’appuie sur des hypothèses fortes permettant de vérifier les principes de la programmation d...
متن کاملClassification non supervisée des données hétérogènes à large échelle
Résumé. Quand il sera question de classifier des données massives, le temps de réponse, l’accès disque et la qualité des classes formées deviennent des enjeux majeurs pour les entreprises. C’est dans ce cadre que nous avons été amenés à définir un cadre de classification non supervisée des données hétérogènes à large échelle qui contribue à la résolution de ces enjeux. Le cadre proposé s’articu...
متن کاملReactiveML, un langage fonctionnel pour la programmation réactive
RÉSUMÉ. La programmation de systèmes réactifs tels que les simulateurs de systèmes dynamiques ou les jeux vidéo est une tâche difficile. Les techniques classiques pour programmer ces systèmes sont fondées sur l’utilisation de bibliothèques de threads ou de programmation événementielle. Nous introduisons ici le langage REACTIVEML comme une alternative à ces pratiques. Le langage est une extensio...
متن کامل